智能论文笔记

Comparison of semi-supervised learning methods for High Content Screening quality control

Umar Masud , Ethan Cohen , Ihab Bendidi , Guillaume Bollot , Auguste Genovesio

分类：计算机视觉 | 机器学习

2022-08-09

自动显微镜和定量图像分析的进展已促进了高含量筛查（HCS）作为有效的药物发现和研究工具。尽管HCS提供了高吞吐量图像的复杂细胞表型，但该过程可能会受到图像畸变的阻碍，例如异常图像模糊，荧光团饱和度，碎屑，高噪声，高水平的噪声，意外的自动荧光或空的图像。尽管此问题在文献中受到了温和的关注，但忽略这些人工制品会严重阻碍下游图像处理任务，并阻碍对细微表型的发现。因此，在HCS中使用质量控制是主要问题，也是先决条件。在这项工作中，我们评估了不需要大量图像注释的深度学习选项，即可为此问题提供直接且易于使用的半监督学习解决方案。具体而言，我们比较了最近的自我监督和转移学习方法的功效，以提供高吞吐量伪像图像检测器的基础编码器。这项研究的结果表明，对于此任务，应首选转移学习方法，因为它们不仅在这里表现出色，而且具有不需要敏感的超参数设置或大量额外培训的优势。

translated by 谷歌翻译

语言模型预训练的最新进展利用大规模数据集创建多语言模型。但是，这些数据集中大多遗漏了低资源语言。这主要是因为网络上没有很好地表示口语，因此被排除在用于创建数据集的大规模爬网中。此外，这些模型的下游用户仅限于最初选择用于预训练的语言的选择。这项工作调查了如何最佳利用现有的预培训模型来为16种非洲语言创建低资源翻译系统。我们关注两个问题：1）如何将预训练的模型用于初始预培训中未包含的语言？ 2）生成的翻译模型如何有效地转移到新域？为了回答这些问题，我们创建了一个新的非洲新闻语料库，涵盖16种语言，其中8种语言不属于任何现有评估数据集的一部分。我们证明，将两种语言转移到其他语言和其他领域的最有效策略是，以少量的高质量翻译数据微调大型预训练模型。

translated by 谷歌翻译